в библиотеку


Многоязычный алгоритм семантического-синтаксического анализа текстов

Автор: В.А. Фомичёв

Источник: A multilingual Algorithm of Texts’ Semantic-Syntactic Analysis

Перевод: Кисниченко Е.А.


Аннотация

Естественного языковые тексты (NL-тексты) из газет, списки электронной почты, различные блоги и т.д. являются важными источниками информации и в состоянии стимулировать разработку нового плана действий. В статье описывается новый формальный подход к разработке многоязычного алгоритма семантического-синтаксического анализа ЕЯ-текстов. Это является частью теории K-представлений - новой теории проектирования семантически-синтаксических анализаторов ЕЯ-текстов с широким использованием формальных средств для представления входного сигнала, посредника и выходных данных.

Одной из главных составляющих этой теории представляет собой комплекс, структурированный алгоритм SemSynt1 осуществляющий семантически-синтаксический анализ текстов с английского, немецкого и русского языков. Важной особенностью этого алгоритма является то, что он не строит никакой синтаксических представлениий введенного NL-текста, а непосредственно находит семантические отношения между текстовыми единицами. Другой отличительной особенностью является то, что алгоритм полностью описывается с помощью формальных средств. Особенности и некоторые центральные процедуры алгоритма SemSynt1 анализируются.

Ключевые слова

Семантика ориентированной обработки естественного языка; теория K-представлений; формальная модель лингвистической базы данных; SK-языки; многоязычный алгоритм семантико-синтаксического анализа.

Введение

Важным источником информации, чтобы стимулировать разработку нового плана действий, являются естественно-языковые тексты (NL-тексты) из газет, списки электронной почты, различные блоги, и т.д. Есть множество ситуаций, когда информация, которая в состоянии изменить план действий, может быть получена из нескольких источников в естественных языках. Например, это имеет место в планировании доставки грузов в различных странах.

Структура теории К-представлений

Первый основной составляющей теории K-представлений является теория SK-языка (стандартные знания языков). Ядром теории SK-языков является математическая модель, переписывающая 10чную систему операций на структурированные значения (SMS) из текстов на естественном языке (ЕЯ-текстов), в то что, используя примитивные концептуальные элементы как «блоки», мы можем построить из СУБП произвольных ЕЯ-текстов (в том числе статей, учебников и т.д.) и произвольных кусков знаний о мире. Анализ научной литературы по теории искусственного интеллекта, математической и компьютерной лингвистики показывает, что на сегодня класс SK-языков открывает широчайшие перспективы для построения семантических представлений (SRS) из ЕЯ-текстов (например, для представления значения NL-текстов в формальный способ).

Выражение SK-языков будет называться K-строки. Если выражение является выражением на естественном языке (NL) и К-строку Semrepr можно интерпретировать как семантическое представления выражение, то Semrepr будем называть К-представление (КП) выражения Expr.

Второй основной составляющей теории K-представлений является широко применяемая математическая модель лингвистической базы данных. Модель описывает кадры, выражающие необходимые условия для существования семантических отношений, в частности, в следующих словосочетаниях: «словесной форме (глагол, причастие, деепричастие) + предлог + существительное», «словесной форме + существительное», «Noun1 + предлог + Noun2», «Noun1 + Noun2», «Количество обозначений + существительное», «Атрибут + существительное», «вопросительное слова + глагол».

Третья основная составляющая теории K-представлений - сложный, структурированный алгоритм проведения семантического-синтаксического анализа текстов из некоторых практически интересных подъязыков: английского, русскогои немецкого языков. Алгоритм SemSynt1 превращает NL-текст в его смысловое представление будучи К-представлением. Входные тексты могут быть на английском, немецком и на русском языках. Именно поэтому алгоритм SemSynt1 является многоязычным.

Важной особенностью этого алгоритма является то, что он не строит синтаксическое представление введенного NL-текста, а непосредственно находит семантические отношения между текстовыми единицами. Другой отличительной особенностью является то, что сложный алгоритм полностью описывается с помощью формальных средств.

Ключевые идеи многоязычного алгоритма обнаружения семантической связи глаголов

Рассмотрим условия, необходимые для существования семантической связи между смыслом в словесной форме, и значения слова или словосочетания в зависимости от предложения в этой словесной форме. Давайте договоримся использовать термин «существительное группы» для обозначения существительных или существительные вместе с зависимыми словами, представляющих концепции, объекты и наборы объектов. Пусть, например, S1 = «Когда и где две алюминиевые емкости с керамическими плитками были доставлены?», S2 = «Когда статья профессора П. Сомова был доставлен?» и S3 = «Поместите синюю коробку на зеленом квадрате». Тогда фразы «две алюминиевые емкости», «статья профессора П. Сомова», «синяя коробка» - являются существительными группы.

Давайте назовем «словесная форма»: либо «глагол в личной или неопределенной форме», либо «причастие или деепричастие». Открытие возможных семантических связей между словесной форме и фразами, в том числе существительного или вопросительного местоимения, играет важную роль в процессе семантического-синтаксического анализа ЕЯ-текстов.

Давайте предположим, что позиция словесной формы в представлении Rc, позиция существительного или вопросительного местоимения в представлении Rc. Входными данными алгоритма «Найти - SET-отношения - глагол – существительное» являются целые и двумерные массивы Arls и Arvfr, где Arls является проекцией лексико-семантического словаря Lsdic от входного текста, а Arvfr является проекцией словаря кадров VFR на входном тексте.

Целью алгоритма «Найти -SET-отношений - глагола и существительное» является, в первую очередь нахождение натурального числа и количества возможных семантических отношений между значениями текстовых блоков с номерами p1 и p2 в засекречивании представление Rc. Во-вторых, этот алгоритм должен построить вспомогательный двумерный массив Arrelvbdep сохраняя информацию о возможных семантических связях между единицами Rc с номерами p1 и p2. Строки этого массива представляют собой информацию о комбинации в значениях словесной формы, и смысл зависимой группы слов (или одно слово).

Поиск из возможных смысловых связей между значениеми словесной формы и значениями зависимой группы слов делается с помощью проекции словаря словесных кадров Arvfr на ввод текста. В этом словаре такой кадр (или шаблон) ищет, что было бы совместимо с определенными семантическими - синтаксическими характеристиками VF в положении posvb и DGW с номером posdepword в Rc. Такие признаки включают, прежде всего,множество кодов, грамматический случай Grcases связан с текстом формирования блока, имеющего упорядоченное число - значение posdepwd «Положение зависимого слова») в Rc. Давайте предположим, что Rc [posvb, TClass ] = глагол. Тогда Grcases - есть множество грамматических случаев, соответствующих существительному в положении posdepword.

Выводы

Новый метод разработки алгоритмов семантического-синтаксического анализ ЕЯ-текстов, был изменен как показано выше. Этот метод имеет ряд существенных преимуществ по сравнению с другими известными методами разработки алгоритмов. Во-первых, ясность и полнота описания алгоритма SemSynt1 во много раз выше, чем это характерно для научных публикаций по этой проблеме. Во-вторых, метод не предусматривает строительство чистого синтаксического представления анализируемого NL-текста: он ориентирован на выявление семантических связей между элементарными значимых единиц текста.

Литература

1. Fomichov, V.A. (2010); Semantics-Oriented Natural Language Processing: Mathematical Models and Algorithms; New York, Dordrecht, Heidelberg, London, Springer (354 pp.);

2. Popescu, A.-M., Etzioni, O., Kautz, H. (2003); Towards a Theory of Natural Language Interfaces to Databases. In: Proceedings of the 8th International Conference on Intelligent User Interfaces; Miami, FL (pp. 149-157);

3. Wilks, Y. and C. Brewster (2006); Natural Language Processing as a Foundation of the Semantic Web; Foundations and Trends in Web Science, Vol. 1, No. 3 - 4, now Publishers Inc. (129 pp).


вверх